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摘要 : 【 目的 ] 实现 针对 科技 路 线 图 内 容 的 知识 发 现 研究 ,预测 未 来 科技 长 期 发 展 趋势 。【 方法 】 基 于 采用 “抽取 
-同步 -分 类 ”的 文本 挖掘 方法 构建 的 科技 路 线 图 信息 库 , 集成 分 析 全 球 科技 发 展 需 求 和 趋势 ,对比 分析 各 国 发 展 
路 线 和 措施 , 并 以 可 再 生 能 源 领 域 为 案例 进行 实证 研究 。[ 结果 】 利 用 开源 工具 Timeflow、Gephi 等 对 实证 研究 
结果 进行 可 视 化 ,按时 间 序 列 从 多 个 角度 呈现 了 可 再 生 能 源 领域 到 2050 年 的 发 展 态势 及 各 国 的 战略 规划 。 


北京 100069) 


[AR ] 综合 利用 了 多 种 方法 工具 , 自动 化 程度 有 待 提 高 , 个 性 化 功能 有 竺 完善 结论 ] 该 研究 方案 能 够 快速 获 


取 科 技 路 线 图 中 的 核心 信息 ,提高 情报 获取 效率 。 


关键 词 : 科技 路 线 图 战略 情报 文本 挖 气 ”知识 发 现 集成 分 析 信息 可 视 化 


分 类 号 : G356.4 


1 引 言 


科技 路 线 图 是 关于 地 界 各 国 未 来 科技 发 展 规划 最 
直接 的 战略 情报 载体 , 蕴涵 着 各 国 科技 发 展现 状 、 方 
向 、 相 关 拉 术 发 展 进程 、 愿 景 、 阶 段 性 目标 、 战 略 措 
施 等 多 方面 信息 ,是 一 种 密集 型 战略 情报 资源 。 利 用 
文本 挖 气 技 术 实 现 对 科技 路 线 图 的 信息 抽取 、 分 类 组 
织 和 集成 分 析 , 对 把 握 未 来 科技 发 展 方向 , 制定 长 期 
发 展 规划 具有 重要 战略 意义 ”。 

然而 科技 路 线 图 在 情报 学 领域 更 多 属于 情报 研究 
的 产物 ， 较 少 作为 情报 挖掘 的 数据 资源 。 比较 常 
见 的 是 对 某 个 具体 的 路 线 图 报告 进行 人 工 解读 鲜 
有 和 针对 大 量 科技 路 线 图 报告 进行 文本 挖掘 研究 。 因 此 
本 研究 提出 针对 科技 路 线 图 的 文本 挖掘 研 究 方案 , iH 
过 分 析 科技 路 线 图 的 内 容 组 织 和 表达 特征 ,探索 科技 
路 线 图 信息 自动 抽取 方法 , 建立 科技 路 线 图 知识 库 ， 


进而 可 以 基于 该 特征 知识 库 实现 对 大 量 科技 路 线 图 的 
集成 分 析 、 对 比分 析 、 趋 势 分 析 等 , 实现 对 科技 路 线 
图 的 文本 挖掘 和 知识 发 现 踢 。 

本 文 基于 文献 [10] 提 出 的 信息 抽取 方法 构建 的 科 
技 路 线 图 信息 库 , 集成 分 析 全 球 各 国 在 各 个 领域 的 战 
略 规划 信息 ,分 析 每 个 领域 在 世界 范围 内 的 发 展现 状 ， 
并 预测 未 来 发 展 趋势 ， 从 而 实现 针对 科技 路 线 图 文本 
内 容 的 知识 发 现 过 程 , 为 决策 者 制定 相关 领域 发 展 计 
划 提 供 战 略 情报 服务 。 


2 科技 路 线 图 集成 对 比分 析 功 能 框架 


本 研究 前 期 调研 分 析 了 全 球 21 个 国家 或 组 织 发 
布 的 166 份 科技 路 线 图 , 构建 了 科技 路 线 图 内 容 描述 
框架 和 信息 分 类 体系 并 在 此 基础 上 探索 了 针对 科 
技 路 线 图 文本 内 容 的 信息 抽取 方法 "依次 进行 文本 
清洗 、 信 息 抽取 、 数 据 清 洗 、 同 步 匹 配 、 信 息 分 类 等 
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步骤 , 形成 了 包含 文本 基础 信息 、 语 义 分 类 信息 、 内 
容 核心 信息 、 句子 原始 信息 4 类 , 共计 19 个 字段 的 科 
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技 路 线 图 信息 库 ( 见 图 1)。 其 中 语义 分 类 信息 的 取 值 源 
自信 息 分 类 体系 外 中 的 分 类 项 ,如 图 2 所 示 。 


科技 路 线 图 信息 库 


文本 基础 信息 语义 分 类 信息 


* |D doc * Classification 1 
* Title * Classification 2 
* |ssue year * Classification 3 
* |ssuer * Classification 4 
* Object 

* Area 


内 容 核心 信息 向 子 原 始 信息 


* Keyword * |D sentence 
* Value * Sentence 

* Time * Location 

* Relative terms * Weight 


* Relative entities 


图 1 科技 路 线 图 信息 库 构成 字段 


* today * vision 


* pathway * action 


Classification 2 


*need target *trend potential *opportunity 


e challenge *enabler  *barrier 


Classification 3 


* policy e economy  *technology 


e market * social * environment 


Classification 4 


policy economy technology 

* plan *investment ° performance 
e regulation *tax * maturity 
*evaluation — *finance *cost 
*support *other *other 

*other 


market social environment 
*production — *education *resource 
*consumption *employment *emission 
*operation * health *climate 
*other *other * pollution 
*other 


图 2 科技 路 线 图 语义 分 类 信息 取 值 


基于 该 科技 路 线 图 信息 库 , 依赖 领域 (Area)、 时间 
(Time)、 关 注 对 和 象 (Object)、 语 义 分 类 等 信息 ,可 以 分 
别 从 全 球 和 国家 两 个 层面 进行 如 下 分 析 : 

(1) 需求 分 析 : 集成 全 球 各 国 对 同一 领域 的 发 展 
现状 综述 , 分析 该 领域 在 世界 范围 内 的 发 展 需求 ， 以 
便 找 准 发 展 定位 。 

Q) 趋势 分 析 : 集成 全 球 各 国 对 同一 领域 的 发 展 
趋势 、 湾 力 、 机 遇 的 分 析 论 述 ， 预测 该 领域 在 世界 范 
玮 内 的 长 期 发 展 趋势 ,及 时 把 握 发 展 机 遇 。 

(3) 路 线 分 析 : 集成 对 比分 析 全 球 各 国 在 同一 领 
域 的 技术 发 展 路 线 , 为 制定 符合 国情 的 发 展 路 线 提供 
参考 服务 ， 如 : 

GD 技术 发 展 态势 分 析 : 集成 全 球 各 国 在 同一 领域 不 同 
时 段 的 技术 选择 信息 ， 分 析 该 领域 的 技术 发 展 态势 ; 


@) 技 术 发 展 方向 分 析 : 集成 全 球 各 国 在 同一 领域 不 同 
时 段 的 技术 目标 信息 ， 预 测 该 领域 的 未 来 技术 发 展 方向 ; 

图 技术 发 展 路 径 分 析 : 集成 同一 技术 在 全 球 各 国 的 发 
展 目标 , 对 比 各 国 针对 相同 技术 的 不 同 发 展 路 径 规划 。 

(4) 战略 分 析 : 集成 对 比分 析 全 球 各 国 在 同一 领 
域 采 取 的 战略 措施 ,为 决策 者 适时 适当 的 战略 布局 提 
供 战 略 情报 服务 ， 如 : 

(不 同 国家 的 发 展 愿景 分 析 : 在 相同 时 间 区 间 ， 对 比分 
析 不 同 国家 在 同一 领域 的 不 同 发 展 愿 景 目标 ; 
@) 不 同 国家 的 发 展 路 线 分 析 : 在 相同 时 间 区 间 ， 对 比分 
析 不 同 国家 在 同一 领域 的 不 同 发 展 路 线 规划 ; 
@@) 不 同 国家 的 发 展 措施 分 析 : 在 相同 时 间 区 间 ， 对 比分 
析 不 同 国家 在 同一 领域 采取 的 不 同 发 展 战略 措施 。 

因为 科技 路 线 图 通常 是 由 权威 机 构 或 部 门 针 对 相 
关 领 域 发 布 的 未 来 发 展 计 划 , 所 以 具有 一 定 的 权威 性 
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和 前 脆性, 通过 上 述 分 析 , 可 以 比较 全 面 地 了 解 相 关 
领域 在 世界 范围 内 的 发 展现 状 和 趋势 ,该 领域 未 来 发 
展 的 关键 技术 , 以 及 各 国 在 该 领域 的 技术 选择 和 战略 
布局 ,因此 对 把 握 发 展 机 遇 、 制 定 发 展 成 略 具有 重 : 
的 情报 价值 和 参考 意义 。 


3 ”科技 路 线 图 集成 分 析 实 现 方法 


31 需求 分 析 

为 了 分 析 某 个 领域 在 世界 范围 内 的 发 展 需 求 ， 集 
成 全 球 各 国 对 该 领域 发 展现 状 的 调查 结果 , 本 研究 使 
用 开源 工具 Timeflow 进行 可 视 化 呈现 , 将 属于 同一 
领域 的 现状 (Classification 1=“today”) 及 需求 
(Classification 2 =“need”) 信 息 在 时 间 (Time) 轴 上 分 类 
(Classification 3) 呈现, 并 用 权重 (W) 标 识 关 键 词 节点 
大 小 , 用 不 同 颜色 标识 分 类 指标 (Classification 4). W 
了 实现 上 述 功 能 , 需 对 已 有 数据 进行 如 下 预 处 理 : 


(1) 关键 词 与 时 间 词 的 关联 匹配 

由 于 同一 个 句子 中 可 能 包含 多 个 关键 词 和 时 间 
词 , 所 以 需要 将 每 个 关键 词 和 时 间 词 关联 匹配 ,本 
研究 使 用 Python 编码 ,遍历 同一 个 句子 内 的 每 个 关 
键 词 和 时 间 词 ,借助 值 词 和 二 者 的 个 数 关 系 实现 一 
对 一 匹配 , 详情 可 以 参考 文献 [10] 的 核心 信息 同步 
匹配 部 分 。 

(2) 时 间 词 的 赋值 计算 

为 了 将 各 类 信息 在 时 间 轴 上 呈现 , 针对 以 “today/ 
year/decade/century 等 ”方式 表达 的 时 间 词 , 统一 映射 
为 数字 表达 方式 , 同时 为 “Time” 字 有 段 为 空 的 数据 记录 
根据 Classification 1 字段 结果 赋予 时 间 信 息 。 设 报告 
发 布 年份 等 于 t, VA t 为 分 界 点 ， 对 包含 “year/decade/ 
century 等 ”的 时 间 词 按 表 1 中 规则 分 别 取 计算 符号 和 
数值 ， 计算 出 对 应 的 时 间 信 息 “t +/-n”*。 对 其 他 不 涉及 
计算 的 时 间 词 按 表 2 中 规则 直接 进行 赋值 。 


表 1 时 间 词 计算 规则 


规则 描述 操作 
计算 符号 (+/-) 的 判定 规则 (决定 在 时 间 t ”过 去 时 间 over/past/previous/recent/preceding/last 等 ,符号 取 “-” 
的 基础 上 执行 “加 "或 “ 减 ”操作 ) 将 来 时 间 next/following/coming/later 等 ,符号 取 “+” 
单数 year: n-1; decade: n=10; century: n=100 


计算 加 数 或 减 数 的 取 值 规则 (在 时 间 t 
的 基础 上 执行 加 减 的 数值 n) 


two/three/ten/20 等 后 接 复 数 


years: 取 相 应 数字 ， 即 n=2/3/10/20 等 
decades: 取 相 应 数字 乘 以 10， 即 n=10x(2/3/10/20) 等 
centuries: 取 相 应 数字 乘 以 100， 即 n=100x(2/3/10/20) 等 


few/several/some 等 后 接 复数 


years: n=5; decades: n—50; centuries: n-500 


表 2 时 间 词 赋值 规则 


条 件 赋值 
当前 时 间 ( 如 today/present/current/now) 赋值 为 发 表 年 份 t 


beginning/early/dawn/start of century/decade 


end/late of decade/century 


Classification 1—-"today" 


时 间 i HZ UP Classification. 1—"vision" 
UR HR REMEK C : m »» Jec DURD 
时 间 信 息 ) Classification 1-"pathway"/"action 


Classification 1-"other" 


赋值 为 该 10 年 或 世纪 开始 的 年 份 
赋值 为 该 10 年 或 世纪 结束 的 年 份 


即 属于 现状 , 赋予 发 表 年 份 t 

即 属于 愿景 ,赋予 最 后 一 个 规划 节点 年 份 
即 属于 路 线 或 措施 ， 赋予 整个 规划 区 间 
即 属于 其 它 ， 赋予 t-1， 作 为 其 它 背 景 信息 


虽然 Timeflow 可 以 呈现 时 间 区 间 , 为 了 使 呈现 结 
果 更 加 清晰 可 辨 , 本 研究 中 将 时 间 区 间 分 解 为 多 个 时 
间 规 划 节 点 ， 如 区 间 (2015, 2050) 分 解 为 “2015、2020、 
2030、2050”, (2011, 2030) 分 解 为 “2011、2020、2030”。 
然后 使 所 在 句子 的 关键 词 一 一 与 每 个 时 间 节 点 关联 
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匹配 。 

(3) 关键 词 权 重 计算 

根据 关键 词 在 每 篇 文档 中 所 处 位 置 (Location)、 词 
频 (TF, 在 某 篇 文档 内 出 现 的 次 数 ) 和 文档 频次 (DEF, 在 
语料库 中 出 现 该 关键 词 的 文档 数 ) 赋 予 不 同 的 权重 。 


位 置 权重 (w,): 根据 位 置 重要 性 从 高 到 低 赋 予 其 不 同 
44x EAE US wioag=7、wige=6、Witem=5、 Wbegin™hs Wiead™3 ~ 
Wend™2~ Wplain™l; 

Quis Qw): 取 关 键 词 词 频 的 自然 对 数 wln TF; 

(文档 频次 权重 (wa): 取 关 键 词 文档 频次 的 自然 对 数 
wp ln DF, 

关键 词 总 权重 丈 =w+w+wa 其 中 mw 和 人 反映 
关键 词 在 所 属 文档 中 的 局 部 重要 性 ，wz 反映 该 关键 词 
在 语料库 中 的 全 局 重要 性 , 综合 权重 历 反 映 了 该 关键 
词 在 整个 领域 发 展 规 划 中 的 重要 性 。 

32 ”趋势 分 析 

集成 全 球 各 国 对 未 来 某 个 领域 发 展 趋 势 、 潜 力 、 
机 遇 的 判断 分 析 , 可 以 预测 该 领域 在 世界 范围 内 的 总 
体 长 期 发 展 趋势 ， 本 研究 使 用 开源 工具 Timeflow 进行 
可 视 化 呈现 , 将 属于 同一 领域 的 愿景 (Classification 1 
=“vVision”) 及 趋势 (Classification 2 —"trend & potential 
& opportunity") 信息 在 时 间 (CTime) 轴 上 分 类 
(Classification 3) 呈现 ,并 用 权重 标识 关键 词 节点 大 
小 , 用 不 同 颜色 标识 分 类 指标 (Classification 4)。 其 中 
时 间 和 权重 计算 方法 同 需求 分 析 。 

3.3 ”路 线 分 析 

为 了 预 判 某 个 领域 的 技术 发 展 走向 , 集成 全 球 各 
国 在 该 领域 的 未 来 发 展 路 线 规 划 信 息 ， 本 研究 使 用 
Gephi ”将 各 国 在 同一 领域 的 技术 选择 及 其 日 标 按 
时 间 规 划 节 点 呈现 , 关键 词 作为 节点 标签 ,关键 词 之 
间 的 句 内 共 现 关系 作为 边 。 因 为 内 容 核 心 信息 中 的 关 


g 
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Edge,, r, 的 权重 LOT AR t1 
else 
新 增 Edge, , 的 权重 Www = l 

(输出 每 个 节点 Node, 及 其 对 应 的 权重 Wiw, 到 文件 
node trend.txb 输出 每 条 边 Edge, , 及 其 权重 Win r, 到 文 
件 edge trend.txt; 

D node trend.txt fe edge trend.txt 导入 Gephi， 用 节点 
权重 wiw 标识 节点 标签 大 小 和 颜色 深浅 ,， 边 权重 wa, ”标识 
边 的 粗细 和 颜色 深浅 。 

Q) 技术 发 展 方向 分 析 

D f t $ A A A (Area), ARDHA ARR 
(Classification 1—"pathway") 2L Xi] P #934 R (Classification 3= 
“technology” ) X Æ H +f (Classification 2=“need & target") 47 
关键 词 、 权 重 (Weight) 和 关联 术语 (Relative_ terms) 信 息 ; 

@) 构 建 关键 词 网 络 文件 并 导入 Gephi TIAL, 方法 与 态 
势 分 析 相同 。 

(3) 技术 发 展 路 径 分 析 

MEAR i iR] (Keyword), 对 比分 析 全 球 
各 国 针 对 该 项 技术 发 展 路 径 (Classification_1= 
“pathway”) 的 不 同上 日 标 (Classification 2=“target”) 规 划 ， 
使 用 Timeflow 按时 间 轴 (Time 沁 呈现 不 同 国 家 
(“Object”) 的 发 展 路径 。 

3.4 ”战略 分 析 

为 对 比分 析 全 球 各 国 在 同一 领域 的 战略 规划 ， 如 
发 展 愿景 、 路 线 和 采取 的 相应 措施 ,使 用 开源 工具 
Timeflow 对 所 关注 国家 在 特定 领域 的 相关 战略 信息 进行 
全 面 可 视 化 分 析 , 并 按时 间 序 列 (以 “time” 为 横 轴 ) 分 类 


联 术语 词 是 所 在 句子 包含 的 全 部 术语 关键 词 ， 因 此 可 
以 利用 同一 句子 编码 的 关键 词 和 关联 术语 词 两 个 字段 
构建 边关 系 , 本 研究 采用 Python 编程 实现 关键 词 网 络 
的 构建 ,主要 算法 步骤 如 下 。 

(1) 技术 发 展 态势 分 析 

中 第 选 某 个 领域 (Areal)， 集 成 分 析 各 国 路 线 
(Classification 1—"pathway") JL X] v & m i8] Pr E (Time) 85 44 
AR. (Classification 3-"technology") X /& 3$ 3», i8 7]. Nui 
(Classification 2=“trend & potential & opportunity") 85 X 4 9] 
(kwi)、 权 重 (wi) 和 关联 术语 (rt) 信息 ; 

四 构建 关键 词 网 络 ,遍历 每 个 关键 词 bi 

if 已 存在 节点 Node,,, 


Node,,, 的 权重 w,, = wi, T wi 


else 
新 增 节点 Node, ， 权 重 Wo = wi 
遍历 每 个 关联 术语 词 ri 

if 已 存在 kw; 到 rt; 的 边 Edge, "t; 


(以 “Classification 3” 为 纵 轴 ) 呈 现 , 用 权重 (W) 标 识 关键 
词 节 点 大 小 , 用 不 同 颜色 标识 分 类 指标 (Classification_4)。 
选择 某 个 领域 (Area) 和 关注 对 象 (Object), 集成 其 在 政 
策 、 经 济 、 技 术 、 市 场 等 各 方面 (Classification 3) 的 信 
息 ， 分 析 关 注 对 象 在 该 领域 的 发 展 愿景 、 路 线 及 措施 ， 
具体 分 析 目 标 及 其 实现 配置 如 表 3 所 示 。 

表 3 针对 关注 对 象 在 某 个 领域 的 战略 分 析 参 数 设置 


功能 目标 参数 设置 公共 配置 
发 展 愿景 Classification 1-*vision"; x il: time; 


分 析 Classification 2-"target^; y 轴 : Classification 3; 


发 展 路 线 Classification 1—"pathway"; 权重 : Weight; 
分 析 ”Classification 2-"target"; 颜色 : Classification 4; 


4E 
. 节点 : Keyword; 
Classification 1—-"action"; : 


发 展 战略 详情 : 鼠标 悬 停 节点 显 


分 析 es target & 示 原 句 及 所 属 全 部 信息 
need & barrier & enabler"; 字段 
L; 
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4 科技 路 线 图 集成 分 析 结 果 可 视 化 


本 研究 以 可 再 生 能 源 领域 (Renewable Energy) Jj 
Hi, 集成 全 球 针 对 该 领域 发 布 的 科技 路 线 图 信息 , 分 
析 可 再 生 能 源 领域 的 发 展现 状 和 趋势 , 未 来 发 展 的 关 
键 技术 ， 以 及 不 同 国家 在 该 领域 的 技术 选择 和 拟 采 取 
的 战略 措施 。 
4.1 需求 分 析 示 例 

集成 各 国 在 可 再 生 能 源 领 域 的 现状 需求 信息 ,并 
利用 Timeflow 进行 可 视 化 , 如 图 3 所 示 , 可 以 看 出 该 
领域 的 发 展 需求 包含 技术 (Technology)、 市 场 (Market)、 


政策 (Policy)、 环 境 (Environment) 和 经 济 (Economy) 方 
面 , 且 主 要 是 技术 、 市 场 和 政策 需求 。 

(1) 技术 方面 : 主要 是 性 能 (performance, 检 色 ) 和 
成 熟 度 (maturity,， 品 红色 )， 如 : 提高 太阳 能 集 热 絮 的 
性 能 、 先 进 生 物 燃料 的 商业 化 等 ; 

(2) 市 场 方面 : 主要 是 生产 (production, 红色 ) 和 
消费 (consumption, 深 红 色 )， 如 : 增加 发 电量 、 可 再 生 
能 源 份 额 、 能 源 需 求 量 等 ; 

(3) 政策 方面 : 主要 是 规划 (plan, 绿色 ) 和 支撑 
(support， 蓝 色 )， 如 加 强 光 伏 研究 、 制 定 国家 能 源 计 
划 、 增 加 水 电站 项 目 等 。 
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E 3 可 再 生 能 源 领 域 的 发 展 需求 


( 注 : 参数 设置 Classification 1 =“today”, Classification 2 =“need”, Yearz:2015) 


4.2 ”趋势 分 析 示 例 

集成 各 国 在 可 再 生 能 源 领 域 的 发 展 愿景 趋势 信 
A, 利用 Timeflow 可 视 化 如 图 4 所 示 , 可 以 看 出 该 
领域 的 发 展 趋势 包含 市 场 (MarkebD 、 技 术 
(Technology)、 环 境 (Environmenb 、 政 策 (Policy) 、 经 
济 (Economy)、 社 会 (Social) 等 方面 , 且 主 要 是 技术 、 
市 场 和 环境 趋势 。 

(1) 市 场 方面 : 主要 是 生产 (production, 红色 ) 和 
消费 (consumption， 深 红色 )， 如 : 增加 可 再 生 能 源 份 
额 、 发 电量 ,降低 价格 、 增 量 成 本 等 ; 

(2) 技术 方面 : 主要 是 性 能 (performance, KE) 
成 本 (cost， 黄 褐色 )， 如 : 内 置 热 存储 、 光 伏 发 电 、 发电 
厂 效率 、 降 低 投资 成 本 等 ; 
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(3) 环境 方面 : 主要 是 排放 (emission, 青色 ) 和 资 
源 (resource， 紫色 )， 如 减少 温室 气体 排放 、 扩 大 可 再 生 
资源 的 开发 等 。 
4.3 ”路 线 分 析 示 例 

(1) 技术 发 展 态 势 

集成 全 球 可 再 生 能 源 领 域 的 技术 (Technology) 发 
展 趋势 (Trend) 、 洪 力 (PotentiaD) 、 机 遇 (Opportunity) 等 
信息 , 利用 Gephi 进行 可 视 化 , 如 图 5 所 示 , 呈现 了 
2015 至 2050 年 可 再 生 能 源 领 域 的 技术 发 展 态势 。 从 
图 中 可 以 看 出 该 领域 的 发 展 态势 主要 围绕 聚焦 式 太 阳 
能 (CSP)、 生 物质 能 (biomass)、 光 伏 (PV)、 风 能 (wind 
power) AER, 包括 技术 成 本 (cost)、 碳 排放 (CO,)、 发 
电量 (power) 等 方面 的 性 能 提升 。 
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图 4 可 再 生 能 源 领域 的 发 展 趋势 


QÈ: 参数 设置 Classification 1 
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图 $ 可 再 生 能 源 


Q) 技术 发 展 方向 

集成 全 球 各 国 可 再 生 能 源 领域 的 技术 (Technology) 
发 展 目标 (Target) 信 息 , 利用 Miei - 化 , 如 图 6 
所 示 , 呈现 了 2015 至 2050 年 可 再 生 能 源 领 域 的 技术 
发 展 方向 。 从 图 i E 
要 集中 在 聚焦 式 太 阳 能 发 电 (CSP)、 光 伏 (PV)、 水 电 
(hydropower)、 风 电 (wind power)、 生 物质 能 (biomass)、 
生物 燃料 (biofuel) 等 技术 在 交通 (transport)、 建 筑 
(building)、 热 力 (heating) 等 方面 的 应 用 。 


—"vision", Classification 2 =“trend & potential & opportunity", Yearz: 2015) 
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(3) 技术 发 展 路 径 

选 则 某 个 技术 关键 词 ， 对 比分 析 全 球 各 国 针 对 该 
项 技术 发 展 路 径 pathway) 的 不 同 目标 (targeb 规 划 , 用 
Timeflow 进行 可 视 化 。 图 7 呈现 了 可 再 生 能 源 领 域 4 
种 主要 技术 : 聚焦 式 太 阳 能 发 电 技术 (CSP)、 碳 捕获 与 
储存 技术 (CCS) 、 风 电 技 术 (wind power) 和 光伏 技术 
(PV), O MUS 以 CSP 为 例 ， 鼠 
Tick ek RAT S à, 可 以 了 解 该 技术 在 该 时 间 点 的 相 
关 发 展 状态 信息 ,对 比 各 国 该 项 技术 的 发 展 路 径 。 
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图 7 可 再 生 能 源 领 域 的 技术 发 展 路 径 
中 南非 (South Africa): 太阳 能 装机 容量 2012 年 44 战略 分 析 示 例 
100MW—2015 年 500MW2020 年 1.2GW—2025 年 1.5GW 对 比分 析 美 国 和 中 国 在 可 再 牛 能 源 领 域 的 发 


一 2030 年 2.6GW; 展 愿景 、 路 线 和 措施 ， 使 用 Timeflow 对 两 国 在 该 


@ 全 球 (World): 2050 年 太阳 能 装机 容量 650GW, 发 电 id ; 
领域 的 相关 言 息 进 行 见 化 分 析 
量 达 到 2200TWh, CO2 排放 减少 50%; a ls 


IS RE (UAE): 2030 年 降低 CSP 成 本 ; 8 Br. 
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Pathway 


Action 


HS 中 美 可 再 生 色 


(1) 发 展 愿景 对 比 

人 中 美国 在 可 再 生 能 源 领 域 的 发 展 愿景 ， 包 含 市 场 、 政 
策 、 技 术 、 环 境 、 经 济 等 方面 ， 且 主要 是 市 场 、 政 策 和 技术 
目标 。 

1) 市 场 方面 : 主要 是 生产 (production， 红 色 )， 如 : 增加 
可 再 生 能 源 发 电量 、 扩 大 可 再 生 能 源 份额 等 ; 

2) 政 策 方面 : 主要 是 规划 (plan, RE), w: 可 持续 发 展 
能 源 计 划 、 修 建 可 再 生 能 源 发 电厂 等 ; 

3) 技 术 方 面 : 主要 是 性 能 (performance, 橙色 )， 如 提高 
太阳 能 、 风 能 效率 等 。 

@@ 中 国 在 可 再 生 能 源 领域 的 发 展 愿 景 ， 包 含 市 场 、 政 
策 、 技 术 、 经 济 、 社 会 、 环 境 等 方面 ， 且 主要 也 是 市 场 、 政 
策 和 技术 目标 。 

1) 市 场 方面 : RA +” (production, 红色) 和 消费 
(consumption， 深 红色 )， 如 : 增加 可 再 生 能 源 发 电量 、 装 机 容 
量 , 风电 价格 低 于 煤 电 价格 ,降低 风力 发 电 成 本 等 ; 

2) 政 策 方面 : 主要 是 规划 (plan, 绿色 ) 和 支持 (support， 蓝 
E), 如: 制定 风力 发 展 战略 、 激 励 电 网 公司 购买 再 生 电力 等 ; 

3) 技 术 方 面 : 主要 是 成 熟 度 (maturity， 品 红色 )， 如 提高 
风力 发 电 技术 、 大 型 风电 场 、 海 上 风电 场 技术 等 。 

Q) 发 展 路 线 对 比 

OD 美国 在 可 再 生 能 源 领 域 的 发 展 路 线 ， 包含 技 术 、 环 
境 、 政 策 和 市 场 。 

1) 技 术 方 面 : 主要 是 性 能 (performance, E), w7 5 
风能 、 太 阳 能 效率 ; 

2) 环 境 方 面 : 主要 是 排放 (emission， 青色 )， 如 相 比 2005 


EE 源 领 域 的 发 展 战略 对 比 


年 , 减少 CO2 排放 一 2020 年 (17%) 一 2025 年 (26%~28%) 一 
2030 年 (33%) 一 2050 年 (80%); 

3) 政 策 方面 : 主要 是 规划 (plan, 绿色 )， 如 制定 加 速 可 再 
生 能 源 发 展 的 路 线 ; 

4) 3 Zr dg: x Xt (production, 红色 )， 如 : 增加 
可 再 生 能 源 份额 2010 年 ~2030 年 一 26%， 增 加 向 岸 风 能 装机 
容量 2014 年 (63GW) 一 2030 年 (314GW)。 

@@ 中 国 在 可 再 生 能 源 领 域 的 发 展 路 线 ， 包 含 技术 、 市 
场 、 政 策 、 社 会 、 环 境 等 方面 ， 且 主要 是 技术 、 市 场 和 政策 。 

DARS m: 主要 是 性 能 (performance, f & )4e X 3A JE 
(maturity, 品 红色 ),， 如 2010 年 ~2015 年 风电 容量 153GW 一 
2020 年 风电 容量 200GW 一 2030 年 风电 容量 400GW—2050 
年 风电 容量 1TW, 2010 年 ~2020 年 陆地 风电 一 2020 年 ~2030 
年 近海 风电 一 2030 年 ~2050 年 远海 风电 和 微观 选 址 技术 ; 

2) 市 场 方面 : 主要 是 生产 (production， 红 色 ) 和 消费 
(consumption， 深 红色 )， 如 : 2020 年 风电 替代 130mtce( 百 万 
吨 煤 当量 ) 一 2030 年 风电 可 替代 260mtce 一 2050 FJ + T 
^X, 660mtce; 

3) 政 策 方面 : 主要 是 规划 (plan, 绿色 )， 如 制定 可 再 生 能 
源 发 展 战略 。 

(3) 发 展 措施 对 比 

美国 在 可 再 生 能 源 领 域 的 发 展 措施 ,包含 政 策 、 经 
济 、 技 术 、 环 境 、 市 场 等 方面 ， 且 主要 是 政策 、 经 济 和 技术 
措施 。 

1) 政 策 方面 : 主要 是 支撑 (support， 蓝 色 )， 如 : 支持 可 再 
生 能 源 技术 的 研发 ; 
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2) 经 济 方面 : 主要 是 投资 (investment， 棕 色 )， 如 : 每 年 
为 可 再 生 能 源 技术 投入 860 亿美 元 ; 

3) 技 术 方 面 : 主要 是 性 能 (performance, 橙色 )， 如 : 提高 
能 源 载体 、 太 阳 能 光伏 性 能 。 

@ 中 国 在 可 再 生 能 源 领域 的 发 展 措施 ， 包 含 政策 、 市 
场 、 技 术 、 社 会 、 环 境 、 经 济 、 合 作 等 方面 ， 且 主要 是 政策 、 
市 场 措 施 。 

1) 政 策 方面 : 包括 规划 (plan, kE), (regulation, $ 
绿色 )、 评 价 (evaluation, 深蓝 色 )、 支 撑 (support， 蓝 色 )， 如 : 
制定 可 再 生 能 源 工业 发 展 规划 、 电 价 管理 法 规 等 , 提高 风电 技 
术 标 准 、 测 试 和 认证 体系 , 提供 技术 咨询 、 战 略 研究 等 服务 ; 

2) 市 场 方面 : 主要 是 市 场 机 制 ， 加 快 电力 市 场 改 革 、 建 
立 风电 管理 和 市 场 规 则 、 电 力 定价 市 场 化 等 。 


5 结 语 


本 人 研究 采用 前 期 提出 的 文本 挖掘 研究 方案 及 信息 
抽取 方法 ,基于 已 构建 科技 路 线 图 信息 库 ， 以 可 再 生 
能 源 领域 为 案例 集成 分 析 世 界 范 围 内 该 领域 的 发 展 需 
求 和 长 期 发 展 趋势 ,对比 分析 各 国 技术 发 展 路 线 、 战 
略 发 展 措施 等 ,并 利用 Timeflow, Gephi 等 开源 工具 
进行 可 视 化 呈现 。 实 验 结果 表明 , 本 研究 方法 切实 可 
行 ,能够 较 快 速 地 把 握 全 球 发 展现 状 和 趋势 ， 较 全 面 
地 掌握 世界 各 国 未 来 的 长 期 发 展 路 线 和 措施 ,为 决策 
者 制定 符合 国情 的 发 展 规 划 提 供 较 全 面 、 快 速 的 战略 
情报 服务 。 

研究 尚 处 于 方法 探索 阶段 ， 仍 存在 不 足 有 竺 改进 : 
综合 利用 了 多 种 编程 语言 和 软件 工具 , 受 限 于 笔者 的 
时 间 和 精力 ， 暂 未 实现 所 有 工具 的 整合 , 因而 自动 化 
程度 有 待 进一步 提高 ; 可 视 化 均 选 择 了 开源 工具 的 已 
有 功能 , 在 未 来 的 研究 中 可 以 根据 具体 需求 灵活 订 制 
功能 , 例如 目前 仅 能 实现 鼠标 基 停 在 关键 词 节点 显示 
相关 信息 ， 可 以 增加 点 击 关键 词 进入 关联 段落 、 篇 章 
等 详情 页 面 , 更 多 功能 有 竺 完善 。 


[1] 刘 细 文 ,， 柯 春晓 .技术 路 线 图 的 应 用 研究 及 其 对 战略 情报 研 
究 的 启示 [如]. 图 书 情报 工作 , 2007, 51(6): 37-40, 112. (Liu 
Xiwen, Ke Chunxiao. The Applications of Technology 


Roadmap and Its Enlightenment to Strategic Intelligence 
Research [J]. Library and Information Service, 2007, 51(6): 
37-40, 112.) 
[2] Zhang Y, Zhang G, Chen H, et al. Topic Analysis and 
Science, Innovation: 


Forecasting for Technology and 


数据 分 析 与 知识 发 现 


[3] 


[4] 


[5] 


[6] 


[7] 


[8] 


[9] 


[10] 


[11] 


[12] 


[13] 


ChinaXiv 合 作 期 刊 


EL AS 2323Àái2177329s 


Methodology with a Case Study Focusing on Big Data 
Research [J]. Technological Forecasting and Social Change, 
2016, 105: 179-191. 

Amer M, Daim T U, Jetter A. Technology Roadmap Through 
Fuzzy Cognitive Map-Based Scenarios: The Case of Wind 
Energy Sector of a Developing Country [J]. Technology 
Analysis & Strategic Management, 2016, 28(2): 131-155. 

Jin G, Jeong Y, Yoon B. Technology-driven Roadmaps for 
Identifying New Product/Market Opportunities: Use of Text 
Mining and Quality Function Deployment [J]. Advanced 
Engineering Informatics, 2015, 29(1): 126-138. 

MÆR, 冷 伏 海 . 技术 路 线 图 中 未 来 技术 词 表 构建 方法 研 
RUL 现代 图 书 情报 技术 ，2013(5): 59-63. (Ye Chunlei, 
Leng Fuhai. Building the Future—Oriented Technology 
Thesaurus of Technology Roadmap[J]. New Technology of 
Library and Information Service, 2013(5): 59-63.) 

"IRSE, 冷 伏 海 . 基于 词汇 链 的 路 线 图 关键 词 抽取 方法 研 
3r]. 现代 图 书 情报 技术 ，2013(1): 50-56. (Ye Chunlei, 
Leng Fuhai. Study on the Keyword Extraction from Roadmap 
Based on the Lexical Chains [J]. New Technology of Library 
and Information Service, 2013(1): 50-56.) 

Amer M, Daim T U. Application of Technology Roadmaps for 
Renewable Energy Sector [J]. Technological Forecasting and 
Social Change, 2010, 77(8): 1355-1370. 

Bader B, Richardson C, Tsuriya M. Technology Roadmap 
Overviews and Future Direction through Technology 
Gaps[C]// Proceedings of the 2015 International Conference 
on Electronics Packaging. 2015. 

WW EJ, 张晓林 . 针对 科技 路 线 图 的 文本 挖掘 研究 框架 及 
特征 分 析 [ 中 . 情报 科学 . (f$) (Xie Xiufang, Zhang 


Xiaolin. Text-mining Framework and Feature Analysis on 


Science and Technology Roadmap [J]. Information Science. 
In Press.) 

WEI, 张晓林 . 针对 科技 路 线 图 的 文本 挖掘 研究 : 信息 
抽取 方法 [J]. 情报 理论 与 实践 . ( 待 发 ). (Xie Xiufang, Zhang 


Xiaolin. The Research on Text-mining of Science and 


Technology Roadmap: Method of Information Extraction[J]. 
Information Studies: Theory & Application. In Press.) 
Timeflow [EB/OL]. [2016-07-22]. https://github.com/FlowingMedia/ 
TimeFlow/wiki. 

Emi, ERIR. 英文 文献 自动 摘要 系统 的 研制 与 开发 中]. 
高 技术 通讯 , 1999, 9(11): 22-26. (Shi Lei, Wang Yongcheng. 


Research and Development of an Automatic Abstracting 


System for English Documents [J]. Chinese High Technology 
Letters, 1999, 9(11): 22-26.) 
Gephi [EB/OL]. [2016-07-22]. https://gephi.org/. 


201711.01978v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


总 第 1 期 2017 年 第 1 期 


[1] 谢 秀 芳 , 张晓林 . Keywords-network.py. 关键 词 网 络 构建 代码 . 
[2] 谢 秀 芳 , 张晓林 . data-20160608-timesplit.csv. 需求 分 析 ( 图 
3)、 趋 势 分 析 ( 图 4) 、 路 径 分 析 ( 图 7)、 战 略 分 析 ( 图 8) 文 撑 数 据 集 . 

[3] HAF, 张晓林. Keywords trend.rar , node trend.rar 、 

edge trend.rar. REREKAI Br Sc PEG (I. 5). 

[4] Hj 75 2j, 张晓林 . Keywords VsTg.rar, node VsTg.rar, 

所 有 作者 声明 不 存在 利益 冲突 关系 。 edge VsTg.rar. 技术 发 展 方向 分 析 支 撑 数 据 (图 6). 


谢 秀 芳 : 设计 研究 方案 , 采集 、 清 洗 和 分 析 数 据 ， 撰写 论文 ; 
张晓林 : 确定 研究 方向 ,提出 研究 思路 , 修改 论文 。 


[man 


一 


收 稿 日 期 : 2016-09-30 
收 修改 稿 日 期 : 2016-11-02 


支撑 数据 由 作者 自 存储 , E-mail: xiexiufang()mail.las.ac.cn.« 


Integrated Analysis and Visualization of Sci-Tech Roadmaps: 
Case Study of Renewable Energy 


Xie Xiufang"^ Zhang Xiaolin! 
(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 
“School of Health Management and Education, Capital Medical University/ 
Library of Capital Medical University, Beijing 100069, China) 


Abstract: [Objective] This study aims to predict the development trends of science and technology (S&T) with 
knowledge extracted from S&T roadmaps (STR). [Methods] First, we constructed an STR information database based 
on the "extraction — synchronization — classification" method of text mining. Second, we analysed the demands and 
trends of global S&T progress. Finally, we compared and analyzed different countries’ S&T strategies in the field of 
renewable energy. [Results] We used open source tools, such as Timeflow, Gephi to visualize the results of this case 
study, such as the globle development trends and national strategic planning in the field of renewable energy by 2050. 
[Limitations] The automation and personalization features of this study need to be improved. [Conclusions] The 
proposed method could retrieve strategic intelligence from the STRs effectively. 
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